Projet Final Kit Data Science : Veedee Glob

Olaya Hanid - MS BGD

Le plan du projet final Kit Data Science est le suivant :

Importation des librairies

1.Extraction et Nettoyage des données

1.1 Classements des skippers

Extraction des fichiers excel du classement

url = 'https://www.vendeeglobe.org' url_ranking = 'https://www.vendeeglobe.org/fr/classement' r = requests.get(url_ranking) soup = BeautifulSoup(r.text, 'html.parser') names = [soup.find_all('option')[i]['value']for i in range(1,len(soup.find_all('option')))] for name in names: new_url = url_ranking+"/"+name r = requests.get(new_url) soup = BeautifulSoup(r.text, 'html.parser') if len(soup.find_all('a',{'class':'rankingsdownload'}))!=0 : download_link = soup.find_all('a',{'class':'rankingsdownload'})[0]['href'] final_url = url + download_link r = requests.get(final_url) with open("classement/"+download_link.split('/')[2], 'wb') as f: f.write(r.content)

1.2 Fiches techniques des bateaux

1.3 Classement final à l'arrivée

1.4 Le DataFrame final

Data Visualization

Dans cette partie, nous allons visualisé les données pour tous les Skippers dans un premier temps et puis pour les top 5 Skippers à la fin de la course pour plus de lisibilité

Dans la figure suivante, nous pouvons visualisé l'evolution du Rang de tout les skippers en même temps (All) ou choisir un Skipper en particulier

Analyse des données

Nous remarquons que le rang moyen ne reflète pas le rang final d'arrivée; par exemple Yannick avait un rang moyen de 4.34 mais a fini premier au final

Nous remarquons que les Skippers ayant une vitesste moyenne élevée sont parmis les premiers arrivés à la fin de la course

Les Skippers avec des foils sont mieux classés

Les SKippers avec des foils ont une vitesse moyenne plus elévée

Prédire le prochain classement

Le but de cette partie est de prédire le prochain classement à partir du dernier classement de chaque Skipper ainsi que d'autres features

À partir des coefficients de la regression, nous remarquons par exemple que les variables 'Longueur' et "Tirant d'eau" ont un faible coefficient et donc n'ont pas une grande importance dans la prédiction du rang